2 K近邻法
1 K 近邻算法
K 近邻算法
输入: 训练数据集
输出:
- 根据给定的距离度量,在
中找出与 最接近的 个点, 涵盖这 个点的 邻域记为 ; - 在
中根据分类决策规则 (如多数表决) 决定 的类别 , 也即
2 K 近邻模型
从K 近邻算法看出,距离度量、
- 距离度量
距离
给定
不同距离度量下,最近邻点可能不同.
- K 值的选取
K 值的减小意味着模型变复杂,容易发生过拟合;K 值增大意味着模型变简单. - 分类决策规则
多数表决是最常用的分类决策规则. 我们可以说明它与经验风险最小化等价. 事实上,给定分类函数, 误分类的概率为 $$\begin{aligned}
P(Y\neq f(X)) =& 1-P(Y=f(X))\ =&\frac{1}{k}\sum\limits_{x_{i}\in N_{k}(x)}I(y_{j}\neq c_{j})=1-\frac{1}{k}\sum\limits_{x_{i}\in N_k(x)}I(y_i=c_j).\end{aligned}